SPSS数据准备2 – 初始数据检查

By Ruben Geert van den Berg 在数据准备下 SPSS Data Preparation - Case Count

1. SPSS个案计数和变量计数

(概述和数据文件请见此处)

对于任何数据文件，我们首先要知道的是它的维度：它包含多少个案和多少个变量？要快速进行个案计数，请在数据视图 (data view)中选择任何单元格，然后按 CTRL + ![Keyboard arrow](./2313137fe6e97a392a2ad09b755fad.png) 快捷键 (shortkey) 。或者，只需使用滚动条一直向下滚动。

我们的文件包含601个个案。在变量视图 (variable view)中应用相同的方法告诉我们，我们有13个变量。鉴于我们可能会在某个时候删除一些个案和/或变量，我们个人喜欢在我们的语法文件 (syntax file) 中添加关于原始维度的注释。下面的屏幕截图显示了它的样子。

SPSS Data Preparation - Data Dimensions as Comment in Syntax File

2. 唯一个案标识符变量

(概述和数据文件请见此处)

数据文件可能具有也可能没有唯一个案标识符变量 (unique case identifier variable)：一个对每个个案都有不同值的变量。在某些情况下，两个（或更多）变量的组合可以达到此目的。

最好有一个唯一的标识符，原因有三：首先，如果您从数据中删除变量，因为它们看起来不相关，您以后可以决定将它们合并回来，如MATCH FILES 中所示。其次，如果某个个案包含一些不寻常的值，您可以更正它，如果您可以处理这个 - 并且仅处理这个 - 个案。第三，单个标识符可用于包含类似记录的各种数据源中。如果是这样，在您的数据中拥有此标识符使您可以将（编辑的）数据与这些其他数据源合并。

我们的数据似乎包含 id 作为一个唯一的个案标识符。但是我们如何才能真正确定它的值没有重复出现？以下语法 (syntax) 通过使用 AGGREGATE 来做到这一点。

***1. 创建 cnt，保存 id 的频率。
**
aggregate outfile * mode addvariables
/break id
/cnt = n.

***2. 如果 cnt 仅包含 1，则 id 的每个值都出现一次，因此它是一个唯一的标识符。
**
frequencies cnt.

结果

此频率表告诉我们，此变量中唯一的取值是 1。因此，我们确实有一个唯一的个案标识符。否则，第二好的选择是在对数据进行任何其他操作之前创建一个。下面的语法 (syntax) 显示了一种方法，使用数据视图 (data view) 中的轮廓编号，称为 $casenum。

***创建唯一标识符（对于这些数据不是必需的）。
**
compute ident = $casenum.
execute.